17 research outputs found

    Primjena automatskog međujezičnog akustičnog modeliranja na HMM sintezu govora za oskudne jezične baze

    Get PDF
    Nowadays Human Computer Interaction (HCI) can also be achieved with voice user interfaces (VUIs). To enable devices to communicate with humans by speech in the user\u27s own language, low-cost language portability is often discussed and analysed. One of the most time-consuming parts for the language-adaptation process of VUI-capable applications is the target-language speech-data acquisition. Such data is further used in the development of VUIs subsystems, especially of speech-recognition and speech-production systems.The tempting idea to bypass a long-term process of data acquisition is considering the design and development of an automatic algorithms, which can extract the similar target-language acoustic from different language speech databases.This paper focus on the cross-lingual phoneme mapping between an under-resourced and a well-resourced language. It proposes a novel automatic phoneme-mapping technique that is adopted from the speaker-verification field. Such a phoneme mapping is further used in the development of the HMM-based speech-synthesis system for the under-resourced language. The synthesised utterances are evaluated with a subjective evaluation and compared by the expert knowledge cross-language method against to the baseline speech synthesis based just from the under-resourced data. The results reveals, that combining data from well-resourced and under-resourced language with the use of the proposed phoneme-mapping technique, can improve the quality of under-resourced language speech synthesis.U današnje vrijeme interakcija čovjeka i računala (HCI) može se ostvariti i putem govornih sučelja (VUIs). Da bi se omogućila komunikacija uređaja i korisnika putem govora na vlastitom korisnikovom jeziku, često se raspravlja i analizira o jeftinom rješenju prijevoda govora na različite jezike. Jedan od vremenski najzahtjevnijih dijelova procesa prilagodbe jezika za aplikacije koje podržavaju VUI je prikupljanje govornih podataka za ciljani jezik. Ovakvi podaci dalje se koriste za razvoj VUI podsustava, posebice za prepoznavanje i produkciju govora. Primamljiva ideja za izbjegavanje dugotrajnog postupka prikupljanja podataka jeste razmatranje sinteze i razvoja automatskih algoritama koji su sposobni izvesti slična akustična svojstva za ciljani jezik iz postojećih baza različitih jezika.Ovaj rad fokusiran je na povezivanje međujezičnih fonema između oskudnih i bogatih jezičnih baza. Predložena je nova tehnika automatskog povezivanja fonema, usvojena i prilagođena iz područja govorne autentikacije. Ovakvo povezivanje fonema kasnije se koristi za razvoj sustava za sintezu govora zasnovanom na HMM-u za manje poznate jezike. Načinjene govorne izjave ocijenjene su subjektivnim pristupom kroz usporedbu međujezičnih metoda visoke razine poznavanja jezika u odnosu na sintezu govora načinjenu iz oskudne jezične baze. Rezultati otkrivaju da kombinacija oskudne i bogate baze jezika uz primjenu predložene tehnike povezivanja fonema može unaprijediti kvalitetu sinteze govora iz oskudne jezične baze

    Razvoj zbirke slovenskega čustvenega govora iz radijskih iger – EmoLUKS

    Get PDF
    V prispevku predstavljamo graditev slovenske zbirke čustvenega govora za umetno tvorjenje govora in hkrati raziščemo tudi možnosti njene uporabe pri razpoznavanju čustvenega stanja govorca. V prispevku se osredotočamo na opis razvite metodologije za označevanje paralingvistične informacije v govoru na primeru označevanja čustvenih stanj v slovenskih radijskih igrah. Zbirka vsebuje govorne zvočne signale sedemnajstih radijskih iger. Trenutno označeno gradivo obsega čustven govor enega govorca in ene govorke. Čustvene oznake posnetkov smo pridobili s pomočjo dvostopenjskega označevanja s petimi prostovoljnimi označevalci, ki so označili posnetke v dveh časovno ločenih intervalih. Način označevanja omogoča medsebojno primerjavo oznak označevalcev. S pomočjo označenega gradiva v obeh iteracijah poročamo o konsistentnosti označevalcev in ujemanju njihovih mnenj. Na podlagi večinskega mnenja pridobljenih čustvenih oznak vsakemu posnetku pripišemo tisto čustveno oznako, ki je bila med označevalci največkrat izbrana, in tako označene posnetke združimo v zbirko čustvenega govora EmoLUKS, ki jo kvantitativno in kvalitativno ovrednotimo z uporabo uveljavljenega samodejnega sistema za razpoznavanje čustvenih stanj govorca. Konsistentnost oznak ovrednotimo z dvorazrednim in sedemrazrednim od govorca odvisnim razvrščevalnikom čustvenih stanj. Uspešni rezultati razpoznavanja dodatno potrjujejo, da podatkovna zbirka kljub svoji zahtevnosti vsebuje jasno izražena čustvena stanja govorca

    SLOVENIAN EMOTIONAL HMM-BASED SPEECH SYNTHESIS

    Full text link
    Govor je med ljudmi najbolj zastopana oblika sporazumevanja, zato ga večkrat opredeljujemo kot človeku najbolj naravno komunikacijo. Ljudje se brez velikega napora z govorom sporazumevamo, učimo ali si predajamo različna sporočila. Komunikacija med ljudmi pa ni osredotočena samo na zvočno sporočilo, temveč ga ljudje dopolnjujemo tudi z neverbalnimi sporočili. Velikokrat govor spremljajo npr. različne kretnje, izrazi na obrazu, stik s pogledom, drža, dotiki itd. Vse našteto pri komunikaciji nezavedno sprejemamo z vsemi čutili, ki so nam v danem trenutku na voljo. Vse informacije prek različnih čutil zberemo in jih obdelamo v možganih, ki nam prav tako nezavedno omogočijo pravilno prepoznavo sporočila in razpoznavanje njegovega konteksta. Neverbalna komunikacija tako pomembno dopolnjuje človeško glasovno sporazumevanje in človeku omogoča razpoznavo dodatnih informacij, ki omogočajo učinkovito razumevanje sprejetega sporočila in hkrati tudi njegovo umestitev v širši kontekst. V naši doktorski disertaciji se posvečamo raziskovanju tvorbe in zaznave glasovnih sporočil. Glasovno sporočilo lahko opredelimo kot izgovarjavo besed v določenem jeziku in tej izgovarjavi pripadajoče neverbalno sporočilo, ki je človeku večkrat skrito. Vseeno ga lahko prejemnik s pozornim poslušanjem razpozna in se nanj tudi primerno odziva. Takšno neverbalno komunikacijo, ki je del akustičnega sporočila, večkrat opisujemo kot t. i. parajezik. Ta je sestavni del glasovnega sporočila, ki ga v govoru lahko grobo razdelimo na posamezne komponente, kot so ritem, ton, intonacija, jezikovni spodrsljaji, poudarki besed, premori in tišina. Vse te komponente, združene z izgovorjenimi besedami, sestavljajo popolno glasovno sporočilo. V parajezik prištevamo tudi paralingvistična stanja govorca. Posebna vrsta teh stanj so tudi čustva. Človek pod vplivom določenega čustvenega stanja svoj govor velikokrat prilagodi in odraža svoje stanje s sebi lastnimi neverbalnimi sporočili. Ljudje se teh sprememb v govoru le redko neposredno zavedamo. Večkrat pa ravno z njihovo pomočjo razberemo pravilni pomen posredovanega sporočila. Prejemnik čustveno obarvanega glasovnega sporočila tako z lahkoto prepozna glasovne prilagoditve, na podlagi katerih, čeprav nezavedno, sporočilo razvrsti v določeno skupino čustvenih stanj sogovornika. Tako nezavedno razvrščanje, kakor tudi nezavedno tvorjenje čustvenih sporočil, je del našega vsakdana, ki vpliva na medsebojno verbalno sporočanje, razumevanje in ne nazadnje tudi na doživljanje sporočil. Besedilno sporočilo z vsemi komponentami parajezika pomeni sporočilo kot celoto in ga ljudje tvorimo in sprejemamo nezavedno in je del našega najbolj naravnega komunikacijskega sredstva. Tako je govor z vsemi prvinami neverbalne komunikacije za človeka eno najbolj naravnih sredstev sporazumevanja, ki ga spontano srečujemo v vsakodnevni komunikaciji. Že od začetka digitalizacije je želja razvijalcev, da bi razvili način. da bi lahko človek komuniciral s stroji na najbolj naraven način, torej z govorom v lastnem jeziku. Govorni dialog med človekom in strojem naj bi potekal čim bolj podobno kot pri medsebojni komunikaciji med ljudmi. Tako stroj kot tudi človek pri tem podajata in sprejemata govorna sporočila. Sprejemanje sporočil pri stroju opredelimo kot problem razpoznavanja govora, tvorjenje govora pa kot sintezo. Obe področji imata veliko skupnih lastnosti, zato sintezo večkrat opisujemo tudi kot inverzen proces razpoznavanju govora. V zadnjem času so raziskovalci dodobra izpopolnili principe in postopke obeh procesov. A kljub temu ljudje s čedalje bolj zmogljivimi stroji, kot so osebni računalniki, pametni telefoni in druge moderne naprave digitalne dobe, še vedno ne komuniciramo s pomočjo govora. Razloge za to je poleg zahtevnega raziskovalnega dela na področju govornih tehnologij mogoče iskati tudi v jezikovni pestrosti. Močna odvisnost sistemov za modeliranje in tvorjenje govora od jezika zahteva raziskovanje njegovih specifik na akustični in leksikalni ravni za vsak jezik posebej. Do časa pisanja te disertacije obstaja le nekaj svetovnih jezikov, ki imajo razvite sisteme za omejen dialog s stroji. Večina drugih jezikov pa je žal še vedno zapostavljenih. Enega izmed razlogov za takšno selekcijo je mogoče iskati v podatkovnih zbirkah, ki so na voljo v posameznem jeziku za implementacijo že razvitih rešitev. Le dobro urejene zbirke govora, ki imajo hkrati tudi dovolj govornega gradiva, je mogoče uporabiti pri graditvi tovrstnih sistemov. V doktorski disertaciji se ukvarjamo z gradnjo sistemov za umetno tvorjenje slovenskega govora. Pri sistemih za tvorjenje govora se osredotočamo na razumljivost in naravnost tvorjenega umetnega govora. Večkrat se izkaže, da umetni govor ni dovolj podoben naravnemu. Zato si raziskovalci prizadevajo razviti sistem, ki bi pripomogel izboljšati predvsem to komponento pri tvorjenju umetnega govora. Če bi za učenje sistema imeli dovolj veliko podatkovno zbirko govora, ki bi odražala vse značilnosti posameznega jezika specifičnega govorca, bi lahko razvili sistem, ki bi bil nedvomno superioren na obeh ravneh preverjanja. Žal tako obsežnih zbirk govora še ni na voljo. Zato so razvijalci sistemov vedno omejeni na delovanje sistemov, ki jih pogojuje zastopanost gradiva v govorni zbirki. Izdelava govornih podatkovnih zbirk je dolgotrajen in drag proces, zato se večkrat delajo manjše podatkovne zbirke, za bolj specifične namene. Za izboljšanje predvsem naravnosti umetnega govora se v zadnjem času v podatkovne zbirke dodajajo informacije, ki označujejo posamezne komponente parajezika, ali pa kar oznake čustvenih stanj govorca. Za namen sinteze si želimo, da bi zbirke vsebovale čim več govornih primerov posameznega govorca. Z modernimi pristopi k tvorjenju govora lahko tako dovolj dobro modeliramo značilnosti posameznikovega govora. Če zbirki dodamo tudi oznako čustvenega stanja, lahko modeliramo tudi to specifičnost, vendar le, če imamo na voljo dovolj posnetkov govora v določenem čustvenem stanju govorca. Pridobivanje potrebne količine čustvenega govora pa ni edini problem pri zbiranju podatkov za zbirko. Ker ni splošnih definicij, ki bi lahko nedvoumno opredelile, kaj je čustveno stanje, je zaznava čustvenih stanj v govoru tako vedno prepuščena subjektivni percepciji posameznika. Zato je težko pričakovati, da bi se ljudje popolnoma strinjali, v katerem čustvenem stanju je govorec, sploh pa tedaj, ko gre za govorca, ki ga ne poznamo. Zato je treba postopek pridobivanja kakovostnih oznak obravnavati kot enega zahtevnejših problemov pri zajemanju čustvenega govora v zbirko, s čimer smo se ukvarjali v doktorski disertaciji. V novi literaturi srečamo dva sodobna principa graditve sistemov za tvorjenje govora, ki se med seboj poglavitno razlikujeta. Prvi je osredotočen na združevanje naravnih govornih segmentov, drugi pa temelji na parametrizaciji in modeliranju govornih segmentov govora. Za prvega je značilno, da lahko tvori umeten govor bolj naravno, saj združuje čiste segmente naravnih posnetkov, drugi pa segmente modelira in iz modelov akustičnih enot tvori umetni govor. Poglavitna razlika pri graditvi teh dveh principov se izkaže v količini materiala, ki je potreben za izgradnjo obeh sistemov. Pri drugem ga za doseganje kakovostnega in razumljivega govora potrebujemo bistveno manj kot pri prvem. Če pa poizkusimo vgraditi v sistem tudi posamezne komponente parajezika ali čustvenih stanj, potrebujemo za realizacijo prvega sistema neprimerno več gradiva, kot pri drugem. Ker so čustvena stanja težko določljiva, lahko pričakujemo, da bomo razpolagali z manjšim naborom kakovostnega čustvenega gradiva. Zato se v disertaciji osredotočamo na graditev sistema za umetno tvorjenje čustvenega slovenskega govora s pomočjo parametričnih modelov govora, ki jih pridobivamo s postopkom prikritih Markovovih modelov (PMM). Princip gradnje sistemov zaradi parametrizacije govora omogoča modeliranje govora na podlagi statističnih modelov, ki jih določamo na podlagi govorne zbirke. S spremembo parametrov statističnih modelov lahko spreminjamo akustične in intonacijske lastnosti govora ter trajanje govora. To počnemo s postopki adaptacije in interpolacije statističnih modelov. V doktorski disertaciji pa smo takšne postopke uporabili tudi za tvorbo emocionalnih stanj govorca. Vsak udejanjeni sistem za umetno tvorjenje govora je treba vrednotiti. Kot smo že omenili, sisteme za umetno tvorjenje govora preverjamo na dveh ravneh. Prva preverja razumljivost, druga pa naravnost umetnega govornega signala. Realiziran čustveni govor lahko preverimo na podoben način, kot je to mogoče storiti pri graditvi čustvene podatkovne zbirke. Vsak realizirani posnetek čustvenega govora ocenijo ocenjevalci, ki s pomočjo vprašalnika podajo svoje mnenje o tem, ali so v posnetku resnično prisotna zahtevana čustvena stanja govorca. Verodostojno preverjanje je mogoče le, če imamo na voljo dovolj ocenjevalcev in dovolj umetno tvorjenih čustvenih govornih signalov. Tak postopek uvrščamo med postopke subjektivnega vrednotenja sistemov. Toda subjektivno preverjanje je drag in dolgotrajen proces. Zato si razvijalci sistemov želijo, da bi udejanjene sisteme lahko preverjali hitreje in bolj objektivno. Do nastanka te disertacije še vedno ni bilo zanesljivega objektivnega postopka, ki bi razvijalcem ponudil hitrejše in bolj učinkovito vrednotenje udejanjenih sistemov čustvenega govora. V doktorski disertaciji se osredotočamo na izdelavo sistema za umetno tvorjenje slovenskega čustvenega govora. Realiziramo vse komponente, ki so potrebne za razvoj parametričnega sistema za umetno tvorjenje govora. S pomočjo modifikacije znanih postopkov na podlagi prikritih Markovovih modelov (PMM) predlagamo postopek, s katerim je mogoče razviti sistem čustvenega slovenskega govora z omejenim naborom čustvenega gradiva. Postopek temelji na statistični analizi kakovosti oznak posnetkov čustvenega govora. S takim pristopom lahko iz manjše količine čustvenega govora izluščimo specifično informacijo, ki jo posamezen govorec izrazi v določenem čustvenem stanju. Pomembno vlogo pri postopku pa ima tudi govorno gradivo, ki odraža nevtralno čustveno stanje. Takega gradiva je ponavadi v čustvenih zbirkah govora največ in pomeni osnovo za graditev čustvenega sistema za umetno tvorjenje govora. Čustveno nevtralno gradivo tako uporabimo za graditev osnovnega statističnega modela z uporabo tehnik PMM. Tehnike prilagajanja omogočajo, da dobro ocenjen statistični model naravnega govora lahko preslikamo v statistični model posameznega čustvenega stanja govorca. S tako pridobljenim modelom lahko tvorimo poljuben in obenem kakovostni umetni govor v tarčnem čustvenem stanju. Naslednja novost, ki jo predstavljamo v disertaciji, je usmerjena k objektivnemu vrednotenju sistemov za umetno čustveno tvorjenje govora. V disertaciji predlagamo postopek, ki temelji na evklidski razdalji med mel-kepstralnimi vektorji značilk originalnih in umetno tvorjenjih posnetkov. Pridobljene razlike vsakega umetno tvorjenega čustvenega posnetka odražajo oceno podobnosti z originalnim posnetkom. Najmanjša razlika določi najbolj podoben posnetek. Če ima originalni posnetek pripisano čustveno oznako, lahko z metodo verifikacije pridobimo avtomatski rezultat, ki odraža, ali je sistem za umetno tvorjenje govora res udejanjil govor, ki je najbolj podoben čustvenemu govoru v originalnem posnetku. V disertaciji prestavljamo novo zbirko čustvenega slovenskega govora, ki smo jo pridobili iz posnetkov slovenskih radijskih iger. Te smo pridobili za označevanje in nadaljnjo obdelavo z dovoljenjem RTV Slovenija. Čeprav gradivo vsebuje igrana čustvena stanja so le-ta po našem prepričanju podobna čustvenim stanjem v spontanem govoru. Razloge za to trditev lahko iščemo v širšem kontekstu besedila in hkrati v dialogih med protagonisti. Nastopajoči igralci predstavijo posamezno vlogo s širokim naborom čustvenih stanj, ki pa se v akustiki in načinu predstavitve odraža kot čustveni govor igralca. Zato pri pristopu nismo omejeni le z eno radijsko igro, temveč lahko zberemo akustično gradivo posameznega igralca ali igralke v več radijskih igrah. Pomemben dejavnik pri zbiranju akustičnega material je tudi kakovost posameznih posnetkov. Radijske igre so v večini posnete s profesionalno opremo, zato so tudi zbrani posnetki dovolj kakovostni za nadaljnjo obdelavo in procesiranje. V disertaciji predstavimo metodologijo za zbiranje čustvenega akustičnega gradiva iz radijskih iger na primeru izbranega govorca in govorke. Z merami ujemanja označevalcev predstavimo problematiko obravnave in zaznave čustvenega stanja pri posamezniku. Z dvakratnim označevanjem podatkovne zbirke z istimi označevalci, v dveh različnih časovnih obdobjih smo pridobili kakovostno označeno gradivo. Obenem smo preverili tudi konsistentnost posameznikove percepcije čustvenih stanj v govoru. Zbranim posnetkom v zbirki poleg transkripcije dodamo tudi čustveno oznako s pripisom ocene, ki odraža kakovost označbe. Prav ta zbirko izpostavi med redke zbirke slovenskega čustvenega govora, ki poleg čustvene oznake posameznega posnetka vsebujejo tudi informacijo kakovosti oznake izraženega čustvenega stanja na posnetku. Doktorska disertacija je razdeljena na šest poglavij. V uvodnem delu predstavimo temo disertacije, opišemo cilje raziskovalnega dela, ki smo si jih zadali na začetku raziskovanja, ter podamo natančnejši pregled vsebine disertacije. V drugem poglavju naše delo umestimo v širše področje govornih tehnologij, obenem pa izpostavimo splošno znane postopke, ki so osnova za razvoj sistemov za umetno čustveno tvorjenje govora. Hkrati poskusimo s širšim vpogledom v obravnavano področje pojasniti izbore poti, ki smo jih uporabili za nastanek te disertacije. Nova zbirka slovenskega čustvenega govora je opisana v tretjem poglavju, kjer natančno opišemo metodologijo njene izdelave. Osredotočimo se na težavnost označevanja čustvenih stanj v govoru, kar poudarimo z rezultati dvakratnega označevanja izbranih čustvenih posnetkov z istimi označevalci v dveh različnih časovnih obdobjih. Dvakratno označevanje nam omogoča tudi poročanje o konsistentnosti označevalcev pri označevanju emocionalnih stanj. Pridobljene oznake analiziramo in podamo objektivno vrednotenje čustvenega govora v zbirki z avtomatskim sistemom za razpoznavanje od govorca odvisnih čustvenih stanj. Četrto poglavje je usmerjeno k opisu predlaganega postopka za tvorjenje umetnega čustvenega govora na podlagi kakovosti oznake čustvenega gradiva. V poglavju najprej predstavimo osnovni znani postopek, ki omogoča tvorbo umetnega čustvenega govora na podlagi modeliranja z modeli PMM. Postopek zaradi preglednosti razdelimo na posamezne dele, saj s tem lahko bolje poudarimo razlike, ki se odražajo pri realizaciji sistema za tvorjenje čustvenih stanj govorca. V naslednjem razdelku nadaljujemo z opisom prilagoditve postopka z uporabo razvite zbirke čustvenega govora, kjer s pridom uporabimo kakovost oznak čustvenega gradiva. Problematiko vrednotenja sistemov za umetno tvorjenje govora predstavimo v petem poglavju. Na tem mestu opišemo znane subjektivne in tudi znane objektivne postopke za vrednotenje sistemov. Posebno pozornost namenimo vrednotenju čustveno obarvanega umetnega govora, kjer predstavimo predlagan postopek za objektivno vrednotenje. Postopek temelji na procesu verifikacije umetno tvorjenjih čustvenih posnetkov govora. V postopku verifikacije primerjamo besedilno odvisne umetno tovorjene signale z njihovimi originali. Če se ciljna in originalna oznaka čustvenega stanja ujemata, lahko umetno tvorjeni posnetek označimo kot najboljši približek originalnemu posnetku. Na koncu poglavja predstavimo pridobljene rezultate vrednotenja razvitega sistema za umetno tvorjenje slovenskega čustvenega govora, ki je bil udejanjen na podlagi čustvenega gradiva v zbirki EmoLUKS. V sklepnem, šestem poglavju ponovno predstavimo pomembnejše izvirne prispevke disertacije in jih poskusimo ovrednotiti. Poglavje zaključimo s predlogi za nadaljnje delo in podamo smernice, ki odražajo naš pogled in spoznanja za potencialne izboljšave sistemov za umetno tvorjenje slovenskega čustvenega govora.Speech is the most common type of communication between humans and is often defined as the most natural human form of communication. With little effort, people use speech to communicate, learn and share different messages. However, human communication is not limited merely to the vocal sounds, but is also complemented by nonverbal cues. Speech is often accompanied by various gestures, facial expressions, posture, touch etc. They are perceived unconsciously by all the senses that are available in a given situation. The information thus gathered is collected and processed in the brain, which enables us, just as unconsciously, to interpret the message correctly and recognise its context. This means that nonverbal communication is an important supplement to the human voice communication, enabling the recognition of additional information, which makes it possible to comprehend the message efficiently and place it into context. The doctorial dissertation’s aim is to research the formation and perception of vocal communication. Vocal communication can be defined as the utterance of words in a certain language and the accompanying nonverbal signs, which are often hidden. Nonetheless, with attentive listening the recipient can easily recognize and respond to it accordingly. Nonverbal communication modifies the acoustic message and is frequently described as paralanguage. It is an integral part of vocal communication and can be divided into several components: rhythm, tone, intonation, language slips, word emphases, pauses and silence. The sum of these components combined with the uttered words form the entirety of vocal communication. Another component of paralanguage are the paralinguistic states of the speaker and emotions represent a distinctive part of these states. Speakers who are experiencing various emotional states will often modify their speech accordingly and communicate it with unique nonverbal signs. It is rare for people to actually be aware of how they modify their speech. On the other hand, this is precisely what often helps to recognise the true meaning of the communicated message. The recipient of an emotionally expressed vocal message can thus easily recognise such vocal modifications and classify the message, albeit unconsciously, into a certain group of the interlocutor’s emotional states. This unconscious classification, as well as the unconscious formation of emotional messages, is a part of our day-to-day lives and influences the verbal communication, comprehension and, last but not least, perception of messages. The combination of verbal communication and all of its paralanguage components represents the entirety of a message, which is formed and perceived unconsciously and forms a part of our most natural means of communication. Speech, together with all the elements of nonverbal communication, is thus one of the most natural communication means which is experienced daily and spontaneously. Ever since the beginnings of the digital era, researchers wished to develop a way in which humans and machines could interact most naturally, i.e. by speaking to each other. Such human-machine verbal dialogue ought to reflect interpersonal communication as closely as possible. This means that both machine and human form and receive verbal messages. The reception of messages by machines is defined as the problem of speech recognition, while the formation of speech is defined as speech synthesis. Both fields have many common characteristics and speech synthesis is often described as an inverted process of speech recognition. Recently, the principles and processes involved in both have been significantly refined. However, despite having increasingly more powerful machines such as personal computers, smartphones and other modern-day digital devices, we still do not communicate with them verbally. One reason for this could be language diversity, besides the obviously difficult research work necessitated in the field of speech technologies. The fact that systems for speech modeling and synthesis are highly dependent on the language involved means that specific acoustic and lexical research must be carried out on each language separately. At the time of this writing, there are only a handful of languages for which systems for limited human-machine dialogue have been developed. Unfortunately, the majority of languages still lack such systems. One of the reasons for this could be the absence of individual language databases, which are necessary for the implementation of already developed solutions. Only well annotated and sufficiently large speech databases make the development of such systems possible. The dissertation treats the development of systems for artificial synthesis of Slovenian speech. The main goal of these systems is to produce artificial speech that is understandable and natural. It is often the case that artificial speech does not sufficiently resemble natural speech. Because of this, researchers mostly endeavour to develop a system with improved performance in these categories. If they had access to a speech database which was large enough to reflect all the characteristics of the language of a particular speaker, they would undoubtedly be able to create a superior system. Unfortunately, there are no such databases available at this time. The development of well performing systems is thus held back by the amount of data in speech databases. Because building speech databases is a lengthy and costly process, smaller and more specialized databases are often produced. For the purpose of making artificial speech more natural, a recent trend in database production has been to a

    Induced transmembrane voltage and electropermeabilization of cells in cultures in vitro

    No full text
    TOULOUSE3-BU Sciences (315552104) / SudocSudocFranceF

    Poling-induced inverse time-dependent microstrain mechanisms and post-poling relaxation in bismuth ferrite

    No full text
    Domain-wall dynamics under strong, super-coercive electric fields in polycrystalline bismuth ferrite (BiFeO3) are not well established due to the experimental difficulties in processing high phase purity perovskite with low electrical conductivity. Overcoming these difficulties, here we present x-ray diffraction measurements carried out in situ during electrical poling with a trapezoidal electric-field to investigate the domain wall dynamics and lattice strain in this material. It is observed that during field ramping, microscopic strains, i.e., non-180° domain texture and lattice strain, increase simultaneously. During DC field dwell, however, a lattice strain decrease occurs over time, accompanied by an increase in the non-180° domain texture. This inverse time-dependent trend of microscopic strain mechanisms is speculated to be due to mobile charged defects residing in domain wall regions. The configuration of these charged point defects may also play a role in the observed post-poling relaxations of non-180° domain texture and macroscopic piezoelectric coefficients on removal of the field. Since conducting domain walls have been recently identified in a number of ferroelectrics, these results should significantly impact the understanding of strain mechanisms not only in BiFeO3 but on a broader range of ferroelectric materials

    Prenatal dexamethasone treatment for classic 21-hydroxylase deficiency in Europe

    No full text
    Objective: To assess the current medical practice in Europe regarding prenatal dexamethasone (Pdex) treatment of congenital adrenal hyperplasia (CAH) due to 21-hydroxylase deficiency. Design and methods: A questionnaire was designed and distributed, including 17 questions collecting quantitative and qualitative data. Thirty-six medical centres from 14 European countries responded and 30 out of 36 centres were reference centres of the European Reference Network on Rare Endocrine Conditions, EndoERN. Results: Pdex treatment is currently provided by 36% of the surveyed centres. The treatment is initiated by different specialties, that is paediatricians, endocrinologists, gynaecologists or geneticists. Regarding the starting point of Pdex, 23% stated to initiate therapy at 4–5 weeks postconception (wpc), 31% at 6 wpc and 46 % as early as pregnancy is confirmed and before 7 wpc at the latest. A dose of 20 µg/kg/day is used. Dose distribution among the centres varies from once to thrice daily. Prenatal diagnostics for treated cases are conducted in 72% of the responding centres. Cases treated per country and year vary between 0.5 and 8.25. Registries for long-term follow-up are only available at 46% of the centres that are using Pdex treatment. National registries are only available in Sweden and France. Conclusions: This study reveals a high international variability and discrepancy in the use of Pdex treatment across Europe. It highlights the importance of a European cooperation initiative for a joint international prospective trial to establish evidence-based guidelines on prenatal diagnostics, treatment and follow-up of pregnancies at risk for CAH
    corecore